Die meisten Anbieter von Suchmaschinen halten die genauen Prozesse geheim, die beim Ranking der Suchergebnisse ablaufen. Wir möchten Ihnen im Folgenden einen Einblick geben, welche Faktoren die Reihenfolge der Suchergebnisse bei Ihrer Suche auf umwelt.info beeinflussen.
Über das Ranking unserer Suchergebnisse
Wozu dient das Ranking?
Wie bei anderen Suchmaschinen, ist das Ranking der Suchergebnisse auch bei umwelt.info von essentieller Bedeutung, um schnellstmöglich an relevante Informationen zu gelangen. Sobald Sie eine Suchanfrage stellen, wird diese mit allen Einträgen unseres Datenbestands (nachfolgend Index genannt) abgeglichen. Dabei werden die Einträge identifiziert, die die höchste Relevanz für Ihre Suchanfrage haben. Darauf basierend wird die Reihenfolge festgelegt und passende Suchergebnisse entsprechend weit oben in der angezeigten Liste platziert.
Welche Faktoren beeinflussen das Ranking?
Das Ranking auf umwelt.info basiert gegenwärtig auf den vier Faktoren BM25-Ranking, Metadatenqualität, Popularität und Status. Anhand dieser vier Faktoren wird für jeden Eintrag eine Punktzahl (nachfolgend Score genannt) ermittelt. Je höher der Gesamtscore ausfällt, desto weiter oben wird ein Eintrag in der Ergebnisliste positioniert. Im Folgenden werden die einzelnen Faktoren näher erläutert.
Der BM25-Ranking-Algorithmus wird oft standardmäßig in Suchmaschinen verwendet. Er bezieht u.a. mit ein, wie häufig ein Suchbegriff innerhalb eines Eintrags verglichen zum gesamten Textkorpus (in unserem Fall der Index von umwelt.info) auftritt und berücksichtigt die Länge des jeweiligen Suchergebnisses (nähere Informationen zum Algorithmus finden Sie hier). Wir verwenden den Algorithmus in der Form, wie er in der tantivy-Programmbibliothek implementiert ist. Gegenwärtig werden Titel, Beschreibung, Region, Schlagworte, Herkunft, Typ, Messwerte und -methoden von allen Einträgen in unserem Index durchsucht. Kommt ein Suchbegriff im Titel vor, wird dies doppelt gewertet, kommt er in der im Eintrag genannten Region oder in den Schlagworten vor, führt das zu einer dreifachen Wertung, wohingegen die Felder Beschreibung, Herkunft, Typ, Messwerte und -methoden regulär nur einfach gewertet wird.
Ein weiterer Faktor ist die Bewertung der Metadatenqualität. Die Bewertung folgt den FAIR-Prinzipien und soll eine möglichst gute Auffindbarkeit und Nachnutzbarkeit der Datensätze gewährleisten. In diesem Artikel erfahren Sie mehr über die Bedeutung und Berechnung der Metadatenqualität. Der Durchschnittswert aller betrachteten Qualitätskriterien findet dann Verwendung in unserem Ranking.
Die Bewertung der Popularität ergibt sich aus der Anzahl aller bisherigen Zugriffe auf einen einzelnen Eintrag. Je öfter ein Suchergebnis bisher aufgerufen wurde, desto höher fällt die Punktzahl für den Eintrag aus. Aktuelle Zugriffe werden stärker gewertet als weiter zurückliegende Zugriffe (die zugehörige Exponentialfunktion in unserem Code finden Sie hier).
Der Status unterteilt sich in die Kategorien obsolet, aktiv, in Entwicklung und in Planung. Diese Bezeichnungen werden i.d.R. von den Anbietern selbst vergeben. Der Regelfall ist aktiv, das heißt der Eintrag ist aktuell; in diesem Fall bleibt der Score unverändert. Bei obsoleten Einträgen handelt sich um solche, die veraltet sind.
Wie werden die Faktoren gewichtet?
Alle betrachteten Faktoren werden gewichtet und ergeben eine Gesamtpunktzahl für jeden Eintrag. Daraus ergibt sich dann die Reihenfolge, in der die Ergebnisse angezeigt werden. Die Basis des Rankings bildet der BM25-Ranking-Algorithmus, dieser geht mit einer Gewichtung von 80% in unsere Berechnungen ein. Darauf aufbauend gehen der Metadatenqualitäts-Score und der Popularitäts-Score mit 15% bzw. 5% Gewichtung ins Ranking ein (die Implementierung in unserem Code finden Sie hier). Eine hohe Übereinstimmung des Eintrags mit der Suchanfrage beeinflusst das Ranking am stärksten, wohingegen die Faktoren Metadatenqualität und Popularität sich nur geringfügig auf die Positionierung auswirken.
Liegen beispielsweise zwei Einträge beim BM25-Score nah beieinander, würde ein Eintrag mit höherer Metadatenqualität und/oder Popularität tendenziell weiter oben erscheinen. Andererseits soll vermieden werden, dass Datensätze mit hoher Qualität und Popularität zu stark priorisiert werden. Dies könnte dazu führen, dass Einträge mit einer verhältnismäßig geringen Übereinstimmung mit der Suchanfrage dennoch weit oben positioniert werden.
Der Status ist in den meisten Fällen unerheblich und standardmäßig auf aktiv gesetzt, wodurch das Ranking nicht beeinflusst wird. Er dient vor allem dazu obsolete Einträge abzuwerten. Diese werden mit 0.6 multipliziert, um sie entsprechend niedriger zu platzieren. So erhalten Nutzende eher aktive und damit relevantere Einträge weiter oben in der Ergebnisliste. Ebenso werden Einträge, sich in Entwicklung oder in Planung befinden leicht abgewertet, indem sie mit 0.95 multipliziert werden.
Wie können Sie dazu beitragen das Ranking zu verbessern?
Wenn Sie Daten für umwelt.info bereitstellen und daran interessiert sind, dass Ihre Einträge ein möglichst gutes Ranking erhalten, empfiehlt es sich vor allem auf die Metadatenqualität Ihrer Einträge zu achten. Hierzu zählen beispielsweise das Bereitstellen der Daten über maschinenlesbare Schnittstellen und Angaben zur Lizenz, um eine einfache Nachnutzbarkeit zu gewährleisten. Nähere Informationen finden Sie in unserem Artikel zum Thema Metadatenqualität. Wenden Sie sich bei Fragen dazu gerne an uns. Wir beraten Sie gerne.
Es ist uns ein zentrales Anliegen, dass Sie möglichst relevante Suchergebnisse zu Ihren Anfragen zu Umwelt- und Naturschutzbelangen erhalten. Deshalb entwickeln wir unser Ranking stetig weiter. Perspektivisch möchten wir auch noch weitere Faktoren wie z.B. Aktualität und räumlichen Bezug der Suchergebnisse berücksichtigen. Auch unser Index wird stetig erweitert, indem wir immer neue Datenquellen anbinden, um möglichst viele Bereiche des Umwelt- und Naturschutzes umfangreich abzudecken. Sollten Sie bei Ihrer Suche wenig relevante oder unpassende Ergebnisse erhalten oder haben Sie sonstige Anmerkungen zu Ihrer Suchanfrage, kontaktieren Sie uns gerne. Wir freuen uns auf Ihr Feedback.